查看原文
其他

新冠病毒到底是从哪里起源的?

王立铭 罗辑思维 2020-09-11


新型冠状病毒肺炎的疫情,咱们中国疫情防控的进展非常迅速,湖北之外的很多城市已经很少发现新增的患者,开始慢慢恢复正常的生活秩序。

而更严重的问题在其他国家:全球除中国以外的患病人数已经超过1万,韩国、日本、意大利、伊朗和美国都出现了社区传播的迹象。因为患者基数庞大、传播隐匿性强,我们人类可能将不得不面对和这种病毒、这类传染病长期共存的新趋势。

浙江大学教授、「得到」作者王立铭老师,一直在关注这次疫情的进展。在这个月的《巡山报告》中,他想和你讨论一个被很多人关注的问题:新冠病毒到底是从哪里起源的?欢迎你查看下面的文章。


源头不一定在武汉

由于这次新冠病毒是2019年冬天从武汉流行起来的,而且最初不少患者都和武汉地区的华南海鲜市场有过密切接触,因此一直以来的一个主流认知是,这种病毒的源头就在武汉,就在华南海鲜市场。在新冠病毒刚开始流行的2019年,武汉地区的医生们根据患者的生活轨迹,推断出“这种疾病大概和华南海鲜市场有关系”。这当然是很合理的推测。这个推论对于他们准确和及时地认识到这种全新疾病的存在,有很大的帮助。这不难理解。新冠肺炎的症状本身并不特别典型,不容易和其他的病毒性肺炎区分。在疾病刚出现的时候,人们还不知道它的病原体是什么,更没有基于核酸或者抗体的疾病检验手段,要是连“华南海鲜市场”这个抓手都不存在,医生们就更难确认他们面对的是一种什么疾病了。不过,即便是在2019年12月份,也已经出现了和华南海鲜市场没有明确接触史的患者。实际上,目前有据可查的第一个发病的新冠肺炎患者,就没有去过那个市场。这就让这种病毒的源头变得扑朔迷离。我得强调一下:有些早期确诊的患者和华南海鲜市场没有密切接触,这本身既不能说明新冠肺炎和华南海鲜市场有关,也不能说明新冠肺炎和华南海鲜市场没有联系。道理稍微有一点绕,但是我相信你能够理解:虽然这位患者是有据可查的第一个发病的患者,我们有时候会叫他“一号病人”,但他是不是历史上第一个新冠肺炎患者,也就是所谓的“零号病人”或者“初始病例”呢?我们并不确定。也有很大的可能是,那些更早发病的患者由于症状轻微,没有就医自己就好了;或者他们就医了,但是被医生当成其他疾病治疗了;又或者虽然他们感染得早,但是潜伏期更长,所以反而发病时间更晚。如果真是这样的话,早期没有华南海鲜市场接触史的患者,完全可能是被这些至今还没有找到的患者感染的。基于同样的理由,尽管武汉特别是华南海鲜市场周边是本次疫情的暴发源头,这是有充分依据的。但是,我们实际上也没有证据证明新冠肺炎就一定是起源于武汉,起源于华南海鲜市场。新冠病毒确实有可能是在其他的时间和地点第一次进入人体,然后开始人际传播的。这种一开始比较“安静”,突然在某个环境因素催化下开始暴发的传染病,历史上比比皆是。比如说著名的1918年大流感,在1918年初暴发的时候并没有特别凶险,但是在当年夏天,流感病毒突然进化出了超高的致死能力。这个很让人头疼的问题,进一步证明了病毒溯源研究的重要性。我们需要仔细研究新冠病毒的人际传播规律和进化历史,搞清楚它从天然宿主到中间宿主再到人类世界的完整链条。这些信息不光能帮助我们更好地理解这个敌人,也能帮助我们切断传播链条,预防它再次暴发。目前,虽然新冠病毒的天然宿主应该就是蝙蝠,但是蝙蝠体内的哪种病毒、通过什么途径进化出了能够感染人类的新冠病毒,通过什么样的中间宿主的传导,这些进化过程又发生在什么时间和什么地点,仍然有太多的未知数。


方法一:追踪华南海鲜市场

想要搞清楚病毒的真正源头和传播路线,一个办法就是先从武汉、特别是华南海鲜市场入手。毕竟那里仍然是最可疑的地点,不是第一现场,也是第二现场。

但麻烦的是,因为2019年12月底武汉的医生就推测新冠肺炎和华南海鲜市场有关,所以当地有关部门在2020年元旦就已经关停和清理了那个市场,市场内贩卖的各种动物也不知去向。这个操作本身当然是合情合理的,但遗憾的是,清理的时候可能没有注意采集那些动物样本,留待日后研究。所以现在,我们就没有办法知道,那个市场里贩卖的动物、特别是野生动物身上,是不是真的携带新冠病毒了。历史上,在SARS的研究过程中,科学家们之所以能够锁定果子狸作为病毒传播的中间宿主,正是因为他们在SARS暴发地附近的市场里的果子狸身上,找到了一种和SARS冠状病毒相似度高达99.8%的病毒。尽管后来中国的疾控部门宣称,他们从海鲜市场的环境样本,也就是土壤和水里,检测到了病毒的基因序列,但是这种环境检测的作用,远不如真的找到一只或者一批确实携带病毒的动物标本。当然,我猜想我们仍然可以通过追踪海鲜市场的工作人员和进货渠道,进一步寻找可能的病毒源头。但是这些研究,可能需要等到武汉地区的生活秩序恢复正常,才有可能开展。


方法二:追踪病毒基因序列的变异

既然如此,我们只好退而求其次采用第二个办法——利用病毒基因序列变异和进化的规律,通过分析目前存在的病毒样本,去做追根溯源的工作。

这个研究的逻辑本身很简单。我打一个通俗的比方。比如,我们从三个患者身上分离出了新冠病毒,通过检测病毒的基因序列,发现患者1身上的病毒有基因突变X,患者2身上的病毒有基因突变X和Y,患者3身上的病毒有三个基因突变——XYZ。那么,一个最简单的推测就是,病毒的传播应该是1早于2、2早于3,并且它们在这个过程中逐渐积累了更多的基因突变。这个时候,如果你又找到了第四个患者,他身上的病毒没有XYZ的突变,但是有突变W,那你也可以推断,这个患者身体里的病毒,大概和患者123的关系更远一些,可能不是一个家族的。实际上,这并不是一种全新的方法。进化生物学家们一直在用类似的办法分析地球生物彼此的关系。在2004年,中国科学家们也用类似的方法绘制了SARS冠状病毒的传播和进化路线,取得了很大的成功。


陆续发表的三项研究

在过去这段时间,有三篇论文陆续发表。

2020年2月22日,中科院西双版纳植物园的科学家们在论文开放平台上发了一篇论文;

2020年3月2日,协和医学院、疾控中心和美国加州大学的科学家们在另一个开放平台bioRxiv上发表了一篇;

2020年3月3日,北京大学的科学家们在国家科学评论(National Science Review)杂志上发表了另一篇。在这三个研究中,他们都用了刚才咱们说到的这个思路,研究新冠病毒的源头和进化传播路线。

三项研究的思路大同小异,但是结论有些技术性的差别。我们就用西双版纳植物园的那项研究,来具体看看科学家们到底做了什么,又说明了什么问题。在这篇论文里,科学家们分析了从世界各地的患者身上分别提取的90多个新冠病毒的基因组序列,并根据这些基因序列的差异大小,把它们分成了ABCDE五组。然后利用咱们刚才讨论的逻辑,以及新冠病毒起源于蝙蝠的假设,猜测了不同组别之间的传播顺序,结论大致是A-B-C-D/E。而在这个进化和传播链条上,武汉地区采集的病毒主要属于C组,A组和B组的病毒样本则来自武汉之外。其中,A组来自深圳患者,B组来自美国患者。既然更古老的病毒来自武汉之外,于是研究者们就得出了“病毒可能来自华南海鲜市场之外,只是在华南海鲜市场暴发”这样的推论。实际上,对于“新冠病毒2019年12月出现在武汉”这个说法,我也一直是比较怀疑的。一个直接的证据是,至今为止完成了基因组测序的新冠病毒大概有130多个,它们来自世界各地的患者,但是这些病毒之间基因序列的差异非常微弱,没有明显的变异和进化方向。这一点和2003年的SARS病毒截然不同,SARS病毒在传播过程中一直在发生高强度的变异。这说明了什么呢?一个通俗的理解就是,这次的新冠病毒已经进化得很适应人体,不需要再进化了。我们知道,新冠病毒是一种来自动物的病毒,在进入人体之前并没有未卜先知的能力去适应人体。所以,可能的解释只有两个——要么这个病毒在去年12月第一次进入人类世界的时候,就恰好具备了比较完备的各种特性;要么就说明,它可能在此之前就已经进入人类世界默默传播一阵子,逐渐进化出了适应人体的特性,然后才在武汉暴发。我个人会觉得,后一个解释更符合常理。


这些研究存在的问题

但是猜想归猜想,再合理的猜想也需要具体的研究数据做支撑。而刚才这项研究看起来很合理,但本身的说服力其实并没有那么强。

这里面大概有两个原因。首先,根据基因组序列的变化给病毒分类,进行传播和进化链条的研究,本身当然是重要的研究思路,但是这些研究必须和病毒在真实世界里的表现结合起来,才能说明问题。比如前面提到,携带A组病毒的深圳患者和携带B组病毒的美国患者,虽然确实是在深圳和美国华盛顿州被确诊的,但是仔细调查发现,他们在2019年12月到2020年1月这段时间,都曾经在武汉旅行和探亲。考虑到那时候,武汉地区已经有了一批新冠肺炎患者(有些模型估计至少有数千人的规模),那这些患者在武汉停留期间被感染的可能性,显然比他们在深圳和美国被感染的可能性大得多。而且,虽然这些患者可能并没有亲自去过华南海鲜市场,但我们仍然无法确定他们是不是被某些华南海鲜市场的密切接触者传染的。也就是说,这个证据本身并不能说明更古老的A组和B组病毒不是起源于武汉地区、不是起源于华南海鲜市场。说得更广泛一点,基因组信息要结合大量真实世界的信息,才能发挥更大的作用。比如说,我们根据基因组序列的变化把病毒分成几类,如果每一类都正好对应了病毒传播的时间、地域、路线,或者对应了病毒的繁殖速度和毒性的变化,又或者对应了人被感染之后症状的差异,那就可以很放心地说,这种病毒的分类是有生物学现象的支持的,是有道理的。而现在,这三项研究提出的病毒分型,在基因组序列层面当然是成立的,但目前都还没有找到生物学依据和支持。因此,这种分类的价值以及能解决的问题,就需要打一个大大的折扣。这项研究的说服力没有那么强的第二个原因是:利用基因变异的规律分析病毒的传播和进化链条,这个方法成立的前提是,病毒在传播过程中确实发生了大量的基因变异。只有这样,我们才能通过分析这些基因变异寻根溯源。但是刚才也提到过了,新冠病毒的基因突变其实非常稀少。在至今被测序上传的130多条病毒序列中固然发现了100多个突变位点,但是大量的病毒只携带区区几个基因突变,而且彼此之间的基因突变还不重叠,没有形成特别明确的“热点”。这就给绘制它们的传播和进化链条造成了很大的麻烦。我还是打个通俗的比方。刚才咱们讲过患者1、患者2和患者3的例子,但如果这三个患者身上病毒的基因突变不是X、XY、XYZ,而是XY、XZ和W,我们就很难判断他们三者的传播顺序了。当然,你可以大概猜测XY和XZ的关系应该大于XY和W的关系,但是谁先出现、谁传给谁,就很难分析了。对不对?换句话说,在我们讨论的这项研究中,科学家们固然给病毒分成了五组,然后根据它们和蝙蝠病毒的区别大小,计算出了一个A-B-C-D/E的传播链条,但是由于病毒的基因突变太少,也因为我们还不能完全确定新冠病毒到底来自哪一种蝙蝠病毒,这个链条本身的可靠程度是不太让人放心的。换一个算法、换一个统计学模型、换一个起源假设,可能结论就会大相径庭。比如,刚才提到的3月2号和3月3号发布的另外两篇论文,科学家们就根据不同的计算模型,把这些病毒分成了两类(也就是S型和L型),而不是五类,而且也分别猜测了这两类病毒可能的传播和进化顺序。所以你看,使用不同的病毒序列、用不同的分析方法和统计学标准,我们得出其他的分类方法也不是不可能。而要解决这两个问题,唯一的办法就是测出大量病毒的基因序列,用数量进行暴力攻击,然后再结合相对应的患者的发病时间、地域、活动轨迹、疾病情况等等开展分析,才能得到更可靠的结论。但问题是,至今为止全世界有超过9万例新冠肺炎患者,却只有130多条基因组序列被分析和上传。这显然是远远不够的。更麻烦的,还有基因序列的代表性问题。在患者最为集中的武汉地区,被上传的病毒序列只有20来条。不仅低得不成比例,而且大部分还都来自12月底和1月初这段时间。而对病毒携带者进行更详细的追踪和分析,目前还远没有做到。


要 点 小 结

好了,说了这么多,我们简单小结一下:

1. 从科学上说,我们确实还不知道新冠病毒真正的源头是哪里。它可能源自世界上任何地方,然后在2019年12月的武汉出现了第一次大暴发。2. 鉴于华南海鲜市场内的动物样本可能已经被破坏,我们最大的希望是利用病毒基因组序列绘制传播和进化链条,找到病毒的最初源头。这正是这次我们讨论的三篇论文试图解决的问题。它们的研究思路和方法都是合理的,但是目前我们掌握的病毒基因组序列数量太低、代表性太差,类似研究的结论可信度需要打一个大大的问号。3. 在掌握更多的数据得到更可靠的结论之前,武汉地区仍然是最值得我们继续挖掘和分析的第一或者第二案发现场。分析武汉地区病毒的传播规律、人群的历史感染率,是研究课题的重心。4. 想要真正展开这样的研究,要在全世界范围内,特别是对武汉地区内部的新冠肺炎患者,做大规模的病毒基因序列分析。这本身应该没有特别大的技术障碍。目前在不少地方,给疑似新冠肺炎患者做核酸检测已经非常常规,用同样的样品做一下基因组测序也很方便。而且,我们还需要一个机制来保护检测者的权益,也保证这些基因组序列信息的分享和使用。5. 这些病毒的基因组序列信息,如果能够结合真实世界的信息,特别是患者发病的时间、地点、症状,将会起到更大的作用,帮我们彻底搞清楚病毒的传播规律,设计相对应的防控措施。


如果你觉得这篇文章对你有帮助,欢迎你把这篇文章转发到朋友圈,或者分享给你的亲朋好友。

最后欢迎你在留言区说一说:你对于这次疫情的发展,有什么样的看法?


每个月6日,王立铭老师都会在得到App中用《巡山报告》的形式,带你看最近生命科学领域的大事。欢迎你在知识城邦关注王立铭老师,第一时间获取新知。▽ 戳此关注


点个“在看”,守望互助,共克时艰!

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存